We propose the task of free-form and open-ended Visual Question Answering (VQA). Given an image and a natural language question about the image, the task is to provide an accurate natural language answer. Mirroring real-world scenarios, such as helping the visually impaired, both the questions and answers are open-ended. Visual questions selectively target different areas of an image, including background details and underlying context. As a result, a system that succeeds at VQA typically needs a more detailed understanding of the image and complex reasoning than a system producing generic image captions. Moreover, VQA is amenable to automatic evaluation, since many open-ended answers contain only a few words or a closed set of answers that can be provided in a multiple-choice format. We provide a dataset containing ∼0.25M images, ∼0.76M questions, and ∼10M answers (www.visualqa.org), and discuss the information it provides. Numerous baselines and methods for VQA are provided and compared with human performance. Our VQA demo is available on CloudCV (http://cloudcv.org/vqa).
translated by 谷歌翻译
The celebrated proverb that "speech is silver, silence is golden" has a long multinational history and multiple specific meanings. In written texts punctuation can in fact be considered one of its manifestations. Indeed, the virtue of effectively speaking and writing involves - often decisively - the capacity to apply the properly placed breaks. In the present study, based on a large corpus of world-famous and representative literary texts in seven major Western languages, it is shown that the distribution of intervals between consecutive punctuation marks in almost all texts can universally be characterised by only two parameters of the discrete Weibull distribution which can be given an intuitive interpretation in terms of the so-called hazard function. The values of these two parameters tend to be language-specific, however, and even appear to navigate translations. The properties of the computed hazard functions indicate that among the studied languages, English turns out to be the least constrained by the necessity to place a consecutive punctuation mark to partition a sequence of words. This may suggest that when compared to other studied languages, English is more flexible, in the sense of allowing longer uninterrupted sequences of words. Spanish reveals similar tendency to only a bit lesser extent.
translated by 谷歌翻译
尽管相似性搜索研究的不断发展,但它仍然面临着由于数据的复杂性而面临的相同挑战,例如维度和计算距离距离功能的诅咒。已证明,各种机器学习技术能够用简单的线性功能组合来代替精心设计的数学模型,通常以正式保证的准确性和正确的查询性能来获得速度和简单性。作者通过为3D蛋白质结构搜索的复杂问题提供了轻巧的解决方案来探索这一研究趋势的潜力。该解决方案由三个步骤组成:(i)将3D蛋白结构信息转换为非常紧凑的向量,(ii)使用概率模型将这些向量分组并通过返回给定数量的类似对象和(iii)来响应查询,并且)最终的过滤步骤,该步骤应用基本的向量距离函数来完善结果。
translated by 谷歌翻译
对于场景重建和新型视图综合的数量表示形式的普及最近,人们的普及使重点放在以高视觉质量和实时为实时的体积内容动画上。尽管基于学习功能的隐性变形方法可以产生令人印象深刻的结果,但它们是艺术家和内容创建者的“黑匣子”,但它们需要大量的培训数据才能有意义地概括,并且在培训数据之外不会产生现实的外推。在这项工作中,我们通过引入实时的音量变形方法来解决这些问题,该方法是实时的,易于使用现成的软件编辑,并且可以令人信服地推断出来。为了证明我们方法的多功能性,我们将其应用于两种情况:基于物理的对象变形和触发性,其中使用Blendshapes控制着头像。我们还进行了彻底的实验,表明我们的方法与两种体积方法相比,结合了基于网格变形的隐式变形和方法。
translated by 谷歌翻译
我们使用由与Pharma信息科学相关的23个新闻类别组成的文本数据集,以便在分类任务中比较多变压器模型的微调性能。使用具有多个自回归和自动调制变换模型的平衡数据集,我们比较了它们的微调性能。为了验证获胜方法,我们在错误预测的情况下执行模型行为的诊断,包括检测类别明智的指标,评估预测确定性和潜在空间表示的评估。最后,我们提出了一个由执行个人预测器的顶部组成的集合模型,并证明这种方法在F1度量中提供了适度的改进。
translated by 谷歌翻译
这项工作的目的是检测并自动生成视频中异常事件的高级解释。了解异常事件的原因至关重要,因为所需的响应取决于其性质和严重程度。最近的作品通常使用对象或操作分类器来检测和提供异常事件的标签。然而,这将检测系统限制为有限的已知类别,并防止到未知物体或行为的概括。在这里,我们展示了如何在不使用对象或操作分类器的情况下稳健地检测异组织,但仍然恢复事件背后的高级原因。我们提出以下贡献:(1)一种使用显着性图来解除对象和动作分类器的异常事件解释的方法,(2)显示如何使用新的神经架构来学习视频的离散表示来提高显着图的质量通过预测未来帧和(3)将最先进的异常解释方法击败60 \%在公共基准X-MAN数据集的子集上。
translated by 谷歌翻译
云本机应用程序CNAPP(作为分布式系统)是通过通信协议交互的独立组件(微服务)的集合。这引发了CNAPP的抽象架构,作为动态重新配置的无循环定向多图,其中顶点是微服务,并且边缘是协议。用于这种重构的通用机制明显对应于更高级别的函数(功能)。这也意味着MicroService的内部抽象体系结构作为事件触发的无服务器函数的集合(包括实现协议的函数),该函数被动态地组成事件依赖于事件数据流图。同样,这种组合物的通用机制对应于功能和关系的微积分。
translated by 谷歌翻译
肾脏移植可以显着增强患有末期肾脏疾病的人的生活水平。影响移植物生存时间的一个重要因素(移植失败的时间和患者需要另一个移植的时间)是肾移植的是供体和受体之间人类白细胞抗原(HLA)的兼容性。在本文中,我们提出了4种新的与生物学的特征表示,以将HLA信息纳入基于机器学习的生存分析算法中。我们在超过100,000次移植的数据库上评估了我们提出的HLA特征表示,并发现它们将预测准确性提高了约1%,在患者水平上适度,但在社会水平上可能具有重要意义。准确预测生存时间可以改善移植生存结果,从而更好地分配捐助者向接受者分配,并减少由于移植失败而与匹配不佳的捐助者造成的重新移植数量。
translated by 谷歌翻译